Análisis de expresion de secuencias de ARNm de los genes BRCA1/2, ERBB2/ERBB2IP y GSTM1/TP53 en pacientes con cancer de mama

Resumen

Recientemente se ha confirmado que el cancer de mama resulta de desordenes moleculares complejos. El análisis del perfil de expresión de genes ha facilitado el estdudio de grandes volumenes de genes que se expresan en tejidos enfermos, con el fin de desarrollar una firma que pueda eventualmente ser leída en otros pacientes para establecer un pronostico. En este trabajo se analizan tres parejas genes que están particualarmente relacionados con cancer de mama en pacientes con de una base de datos de 293 pacientes enfermos, por medio de aproximaciones estadisticas con algunos paquetes y librerías de Python. Las pareja de genes BRCA1/2 no muestra correlación, pero un porcentaje importante de la población presenta una expresión casi nula. De la pareja de genes ERBB2/ERBB2IP solo el gen ERBB2IP mostró una baja expresión y no presentaron correlación. Finalmente, los genes GSTM1/TP53 presentan ambos muy baja expresión, sin embargo la expresión baja del gen TP53 es mucho más constante en la mayoría de la población.

Introducción

El cancer de mama no es una única enfermedad con características morfológicas variables, sino que se trata de un grupo de desordenes neoplásicos molecularmente diferentes (Sotiriou & Pusztai, 2009). Es por esto que la expresión variable de múltiples genes puede estar involucrada en el origen del cancer de mama. De este modo se proseguido a realizar un anñalisis de genes que potencialmente pueden estar involucrados en el cancer de mama.

La expresión del gen BRCA1, por ejemplo, es importante para la reparación del ADN y para la activación de los puntos de control en el ciclo celular (Sotiriou & Pusztai, 2009), además las mutaciones no solo en el gen BRCA1, sino también en el gen BRCA2 son raras y altamente penetrantes, pero solo explican el 5% de los casos (Dunning et al, 1999).

Por otro lado, se halló que la supresión del gen GSTM1 está asociada significativamente con cancer de mama postmenopausico (Dunning et al, 1999). A pesar de que no se conce en detalle el origen de las muestras del presente trabajo por cuestiones de confidencialidad, es posible que estas se hallan obtenido de individuos con edad avanzado o al menos con un caso de cancer avanzada, lo que nos ha llevado a relizar un análisis de este gen.

El gen TP53 es un gen supresor de tumores, cuya proteína es producida en respuesta al daño del ADN, causando un arresto del ciclo celular en la fase G1 y la inducción de rutas de reparación o de apoptosis (Dunning et al, 1999). Tanto el gen GSTM1 y TP53 son supresores de cancer y se espera observar bajos niveles de expresión entre las muestras.

Finalmente, la expresión del gen ERBB2 esta relacionada con carcinomas HER2-positivos, así como también otros genes de la misma familia como el ERBB2IP (Sotiriou & Pusztai, 2009).

Así pues,de acuerdo con los antecedentes y dado que estos genes son de importancia para la no generación de tumores se espera que al evaluar, en un diseño pareado, la expresión de los genes BRCA1/2, GSTM1/TP53 y ERBB2/ERBB2IP sea baja, de lo contrario se estaría hablando de otros genes que pueden estar involucrados mayormente. Para alncazar este objetivo se condujeron varios análisis utilizando diferentes librerías de Python.

Se obtuvo finalmente que...

Metodología

Para este anális se contó con varias librerias de Python como Pandas, Matplotlib, Seaborn. La librería Pandas permitió trabajar con tablas de datos que se leyeron como formato .csv para eventualmente vizualizar los datos por medio de librerías como Seaborn o Matplot y eventualmente conducir los análisis con las funciones de cada librería.

Los datos fueron obtenidos a partir de la base de datos del Broadinstitute como expresión de secuencias de ARNm de pacientes con cancer de mama. Y los análisis se condujeron en parejas de genes: BRCA1/2, GSTM1/TP53 y ERBB2/ERBB2IP, que se esperaba tenían una relación.

Para el uso de las librerías se importaron al cuaderno de la siguiente manera:


In [1]:
%matplotlib inline 

import pandas as pd # Librería para trabajar con bases y tablas de datos
import numpy as np #libreria de datos numericos
import matplotlib.pyplot as plt # Librearia que permite realizar algunos análisis matemáticos y graficar
import seaborn as sns # Librería que permite la visualización de datos

Resultados

Una vez importado el paquete $pandas$ como $pd$ el se nombró el objeto DF como la tabla de datos que se descargo de la base de datos del $Broadinstitute$.


In [2]:
DF = pd.read_csv('/Users/camilogarcia/Downloads/gdac.broadinstitute.org_BRCA.Merge_rnaseq__illuminahiseq_rnaseq__unc_edu__Level_3__gene_expression__data.Level_3.2016012800.0.0/BRCA.rnaseq__illuminahiseq_rnaseq__unc_edu__Level_3__gene_expression__data.data.txt', sep='\t')
DF.head(5)


/Users/camilogarcia/anaconda/lib/python2.7/site-packages/IPython/core/interactiveshell.py:2717: DtypeWarning: Columns (1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143,144,145,146,147,148,149,150,151,152,153,154,155,156,157,158,159,160,161,162,163,164,165,166,167,168,169,170,171,172,173,174,175,176,177,178,179,180,181,182,183,184,185,186,187,188,189,190,191,192,193,194,195,196,197,198,199,200,201,202,203,204,205,206,207,208,209,210,211,212,213,214,215,216,217,218,219,220,221,222,223,224,225,226,227,228,229,230,231,232,233,234,235,236,237,238,239,240,241,242,243,244,245,246,247,248,249,250,251,252,253,254,255,256,257,258,259,260,261,262,263,264,265,266,267,268,269,270,271,272,273,274,275,276,277,278,279,280,281,282,283,284,285,286,287,288,289,290,291,292,293,294,295,296,297,298,299,300,301,302,303,304,305,306,307,308,309,310,311,312,313,314,315,316,317,318,319,320,321,322,323,324,325,326,327,328,329,330,331,332,333,334,335,336,337,338,339,340,341,342,343,344,345,346,347,348,349,350,351,352,353,354,355,356,357,358,359,360,361,362,363,364,365,366,367,368,369,370,371,372,373,374,375,376,377,378,379,380,381,382,383,384,385,386,387,388,389,390,391,392,393,394,395,396,397,398,399,400,401,402,403,404,405,406,407,408,409,410,411,412,413,414,415,416,417,418,419,420,421,422,423,424,425,426,427,428,429,430,431,432,433,434,435,436,437,438,439,440,441,442,443,444,445,446,447,448,449,450,451,452,453,454,455,456,457,458,459,460,461,462,463,464,465,466,467,468,469,470,471,472,473,474,475,476,477,478,479,480,481,482,483,484,485,486,487,488,489,490,491,492,493,494,495,496,497,498,499,500,501,502,503,504,505,506,507,508,509,510,511,512,513,514,515,516,517,518,519,520,521,522,523,524,525,526,527,528,529,530,531,532,533,534,535,536,537,538,539,540,541,542,543,544,545,546,547,548,549,550,551,552,553,554,555,556,557,558,559,560,561,562,563,564,565,566,567,568,569,570,571,572,573,574,575,576,577,578,579,580,581,582,583,584,585,586,587,588,589,590,591,592,593,594,595,596,597,598,599,600,601,602,603,604,605,606,607,608,609,610,611,612,613,614,615,616,617,618,619,620,621,622,623,624,625,626,627,628,629,630,631,632,633,634,635,636,637,638,639,640,641,642,643,644,645,646,647,648,649,650,651,652,653,654,655,656,657,658,659,660,661,662,663,664,665,666,667,668,669,670,671,672,673,674,675,676,677,678,679,680,681,682,683,684,685,686,687,688,689,690,691,692,693,694,695,696,697,698,699,700,701,702,703,704,705,706,707,708,709,710,711,712,713,714,715,716,717,718,719,720,721,722,723,724,725,726,727,728,729,730,731,732,733,734,735,736,737,738,739,740,741,742,743,744,745,746,747,748,749,750,751,752,753,754,755,756,757,758,759,760,761,762,763,764,765,766,767,768,769,770,771,772,773,774,775,776,777,778,779,780,781,782,783,784,785,786,787,788,789,790,791,792,793,794,795,796,797,798,799,800,801,802,803,804,805,806,807,808,809,810,811,812,813,814,815,816,817,818,819,820,821,822,823,824,825,826,827,828,829,830,831,832,833,834,835,836,837,838,839,840,841,842,843,844,845,846,847,848,849,850,851,852,853,854,855,856,857,858,859,860,861,862,863,864,865,866,867,868,869,870,871,872,873,874,875,876,877,878,879,880,881,882,883,884,885,886,887,888,889,890,891,892,893,894,895,896,897,898,899,900,901,902,903,904,905,906,907,908,909,910,911,912,913,914,915,916,917,918,919,920,921,922,923,924,925,926,927,928,929,930,931,932,933,934,935,936,937,938,939,940,941,942,943,944,945,946,947,948,949,950,951,952,953,954,955,956,957,958,959,960,961,962,963,964,965,966,967,968,969,970,971,972,973,974,975,976,977,978,979,980,981,982,983,984,985,986,987,988,989,990,991,992,993,994,995,996,997,998,999,1000,1001,1002,1003,1004,1005,1006,1007,1008,1009,1010,1011,1012,1013,1014,1015,1016,1017,1018,1019,1020,1021,1022,1023,1024,1025,1026,1027,1028,1029,1030,1031,1032,1033,1034,1035,1036,1037,1038,1039,1040,1041,1042,1043,1044,1045,1046,1047,1048,1049,1050,1051,1052,1053,1054,1055,1056,1057,1058,1059,1060,1061,1062,1063,1064,1065,1066,1067,1068,1069,1070,1071,1072,1073,1074,1075,1076,1077,1078,1079,1080,1081,1082,1083,1084,1085,1086,1087,1088,1089,1090,1091,1092,1093,1094,1095,1096,1097,1098,1099,1100,1101,1102,1103,1104,1105,1106,1107,1108,1109,1110,1111,1112,1113,1114,1115,1116,1117,1118,1119,1120,1121,1122,1123,1124,1125,1126,1127,1128,1129,1130,1131,1132,1133,1134,1135,1136,1137,1138,1139,1140,1141,1142,1143,1144,1145,1146,1147,1148,1149,1150,1151,1152,1153,1154,1155,1156,1157,1158,1159,1160,1161,1162,1163,1164,1165,1166,1167,1168,1169,1170,1171,1172,1173,1174,1175,1176,1177,1178,1179,1180,1181,1182,1183,1184,1185,1186,1187,1188,1189,1190,1191,1192,1193,1194,1195,1196,1197,1198,1199,1200,1201,1202,1203,1204,1205,1206,1207,1208,1209,1210,1211,1212,1213,1214,1215,1216,1217,1218,1219,1220,1221,1222,1223,1224,1225,1226,1227,1228,1229,1230,1231,1232,1233,1234,1235,1236,1237,1238,1239,1240,1241,1242,1243,1244,1245,1246,1247,1248,1249,1250,1251,1252,1253,1254,1255,1256,1257,1258,1259,1260,1261,1262,1263,1264,1265,1266,1267,1268,1269,1270,1271,1272,1273,1274,1275,1276,1277,1278,1279,1280,1281,1282,1283,1284,1285,1286,1287,1288,1289,1290,1291,1292,1293,1294,1295,1296,1297,1298,1299,1300,1301,1302,1303,1304,1305,1306,1307,1308,1309,1310,1311,1312,1313,1314,1315,1316,1317,1318,1319,1320,1321,1322,1323,1324,1325,1326,1327,1328,1329,1330,1331,1332,1333,1334,1335,1336,1337,1338,1339,1340,1341,1342,1343,1344,1345,1346,1347,1348,1349,1350,1351,1352,1353,1354,1355,1356,1357,1358,1359,1360,1361,1362,1363,1364,1365,1366,1367,1368,1369,1370,1371,1372,1373,1374,1375,1376,1377,1378,1379,1380,1381,1382,1383,1384,1385,1386,1387,1388,1389,1390,1391,1392,1393,1394,1395,1396,1397,1398,1399,1400,1401,1402,1403,1404,1405,1406,1407,1408,1409,1410,1411,1412,1413,1414,1415,1416,1417,1418,1419,1420,1421,1422,1423,1424,1425,1426,1427,1428,1429,1430,1431,1432,1433,1434,1435,1436,1437,1438,1439,1440,1441,1442,1443,1444,1445,1446,1447,1448,1449,1450,1451,1452,1453,1454,1455,1456,1457,1458,1459,1460,1461,1462,1463,1464,1465,1466,1467,1468,1469,1470,1471,1472,1473,1474,1475,1476,1477,1478,1479,1480,1481,1482,1483,1484,1485,1486,1487,1488,1489,1490,1491,1492,1493,1494,1495,1496,1497,1498,1499,1500,1501,1502,1503,1504,1505,1506,1507,1508,1509,1510,1511,1512,1513,1514,1515,1516,1517,1518,1519,1520,1521,1522,1523,1524,1525,1526,1527,1528,1529,1530,1531,1532,1533,1534,1535,1536,1537,1538,1539,1540,1541,1542,1543,1544,1545,1546,1547,1548,1549,1550,1551,1552,1553,1554,1555,1556,1557,1558,1559,1560,1561,1562,1563,1564,1565,1566,1567,1568,1569,1570,1571,1572,1573,1574,1575,1576,1577,1578,1579,1580,1581,1582,1583,1584,1585,1586,1587,1588,1589,1590,1591,1592,1593,1594,1595,1596,1597,1598,1599,1600,1601,1602,1603,1604,1605,1606,1607,1608,1609,1610,1611,1612,1613,1614,1615,1616,1617,1618,1619,1620,1621,1622,1623,1624,1625,1626,1627,1628,1629,1630,1631,1632,1633,1634,1635,1636,1637,1638,1639,1640,1641,1642,1643,1644,1645,1646,1647,1648,1649,1650,1651,1652,1653,1654,1655,1656,1657,1658,1659,1660,1661,1662,1663,1664,1665,1666,1667,1668,1669,1670,1671,1672,1673,1674,1675,1676,1677,1678,1679,1680,1681,1682,1683,1684,1685,1686,1687,1688,1689,1690,1691,1692,1693,1694,1695,1696,1697,1698,1699,1700,1701,1702,1703,1704,1705,1706,1707,1708,1709,1710,1711,1712,1713,1714,1715,1716,1717,1718,1719,1720,1721,1722,1723,1724,1725,1726,1727,1728,1729,1730,1731,1732,1733,1734,1735,1736,1737,1738,1739,1740,1741,1742,1743,1744,1745,1746,1747,1748,1749,1750,1751,1752,1753,1754,1755,1756,1757,1758,1759,1760,1761,1762,1763,1764,1765,1766,1767,1768,1769,1770,1771,1772,1773,1774,1775,1776,1777,1778,1779,1780,1781,1782,1783,1784,1785,1786,1787,1788,1789,1790,1791,1792,1793,1794,1795,1796,1797,1798,1799,1800,1801,1802,1803,1804,1805,1806,1807,1808,1809,1810,1811,1812,1813,1814,1815,1816,1817,1818,1819,1820,1821,1822,1823,1824,1825,1826,1827,1828,1829,1830,1831,1832,1833,1834,1835,1836,1837,1838,1839,1840,1841,1842,1843,1844,1845,1846,1847,1848,1849,1850,1851,1852,1853,1854,1855,1856,1857,1858,1859,1860,1861,1862,1863,1864,1865,1866,1867,1868,1869,1870,1871,1872,1873,1874,1875,1876,1877,1878,1879,1880,1881,1882,1883,1884,1885,1886,1887,1888,1889,1890,1891,1892,1893,1894,1895,1896,1897,1898,1899,1900,1901,1902,1903,1904,1905,1906,1907,1908,1909,1910,1911,1912,1913,1914,1915,1916,1917,1918,1919,1920,1921,1922,1923,1924,1925,1926,1927,1928,1929,1930,1931,1932,1933,1934,1935,1936,1937,1938,1939,1940,1941,1942,1943,1944,1945,1946,1947,1948,1949,1950,1951,1952,1953,1954,1955,1956,1957,1958,1959,1960,1961,1962,1963,1964,1965,1966,1967,1968,1969,1970,1971,1972,1973,1974,1975,1976,1977,1978,1979,1980,1981,1982,1983,1984,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024,2025,2026,2027,2028,2029,2030,2031,2032,2033,2034,2035,2036,2037,2038,2039,2040,2041,2042,2043,2044,2045,2046,2047,2048,2049,2050,2051,2052,2053,2054,2055,2056,2057,2058,2059,2060,2061,2062,2063,2064,2065,2066,2067,2068,2069,2070,2071,2072,2073,2074,2075,2076,2077,2078,2079,2080,2081,2082,2083,2084,2085,2086,2087,2088,2089,2090,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100,2101,2102,2103,2104,2105,2106,2107,2108,2109,2110,2111,2112,2113,2114,2115,2116,2117,2118,2119,2120,2121,2122,2123,2124,2125,2126,2127,2128,2129,2130,2131,2132,2133,2134,2135,2136,2137,2138,2139,2140,2141,2142,2143,2144,2145,2146,2147,2148,2149,2150,2151,2152,2153,2154,2155,2156,2157,2158,2159,2160,2161,2162,2163,2164,2165,2166,2167,2168,2169,2170,2171,2172,2173,2174,2175,2176,2177,2178,2179,2180,2181,2182,2183,2184,2185,2186,2187,2188,2189,2190,2191,2192,2193,2194,2195,2196,2197,2198,2199,2200,2201,2202,2203,2204,2205,2206,2207,2208,2209,2210,2211,2212,2213,2214,2215,2216,2217,2218,2219,2220,2221,2222,2223,2224,2225,2226,2227,2228,2229,2230,2231,2232,2233,2234,2235,2236,2237,2238,2239,2240,2241,2242,2243,2244,2245,2246,2247,2248,2249,2250,2251,2252,2253,2254,2255,2256,2257,2258,2259,2260,2261,2262,2263,2264,2265,2266,2267,2268,2269,2270,2271,2272,2273,2274,2275,2276,2277,2278,2279,2280,2281,2282,2283,2284,2285,2286,2287,2288,2289,2290,2291,2292,2293,2294,2295,2296,2297,2298,2299,2300,2301,2302,2303,2304,2305,2306,2307,2308,2309,2310,2311,2312,2313,2314,2315,2316,2317,2318,2319,2320,2321,2322,2323,2324,2325,2326,2327,2328,2329,2330,2331,2332,2333,2334,2335,2336,2337,2338,2339,2340,2341,2342,2343,2344,2345,2346,2347,2348,2349,2350,2351,2352,2353,2354,2355,2356,2357,2358,2359,2360,2361,2362,2363,2364,2365,2366,2367,2368,2369,2370,2371,2372,2373,2374,2375,2376,2377,2378,2379,2380,2381,2382,2383,2384,2385,2386,2387,2388,2389,2390,2391,2392,2393,2394,2395,2396,2397,2398,2399,2400,2401,2402,2403,2404,2405,2406,2407,2408,2409,2410,2411,2412,2413,2414,2415,2416,2417,2418,2419,2420,2421,2422,2423,2424,2425,2426,2427,2428,2429,2430,2431,2432,2433,2434,2435,2436,2437,2438,2439,2440,2441,2442,2443,2444,2445,2446,2447,2448,2449,2450,2451,2452,2453,2454,2455,2456,2457,2458,2459,2460,2461,2462,2463,2464,2465,2466,2467,2468,2469,2470,2471,2472,2473,2474,2475,2476,2477,2478,2479,2480,2481,2482,2483,2484,2485,2486,2487,2488,2489,2490,2491,2492,2493,2494,2495,2496,2497,2498,2499,2500,2501,2502,2503,2504,2505,2506,2507,2508,2509,2510,2511,2512,2513,2514,2515,2516,2517,2518,2519,2520,2521,2522,2523,2524,2525,2526,2527,2528,2529,2530,2531,2532,2533,2534,2535,2536,2537,2538,2539,2540,2541,2542,2543,2544,2545,2546,2547,2548,2549,2550,2551,2552,2553,2554,2555,2556,2557,2558,2559,2560,2561,2562,2563,2564,2565,2566,2567,2568,2569,2570,2571,2572,2573,2574,2575,2576,2577,2578,2579,2580,2581,2582,2583,2584,2585,2586,2587,2588,2589,2590,2591,2592,2593,2594,2595,2596,2597,2598,2599,2600,2601,2602,2603,2604,2605,2606,2607,2608,2609,2610,2611,2612,2613,2614,2615,2616,2617,2618,2619,2620,2621,2622,2623,2624,2625,2626,2627,2628,2629,2630,2631,2632,2633,2634) have mixed types. Specify dtype option on import or set low_memory=False.
  interactivity=interactivity, compiler=compiler, result=result)
Out[2]:
Hybridization REF TCGA-A1-A0SB-01A-11R-A144-07 TCGA-A1-A0SB-01A-11R-A144-07.1 TCGA-A1-A0SB-01A-11R-A144-07.2 TCGA-A1-A0SD-01A-11R-A115-07 TCGA-A1-A0SD-01A-11R-A115-07.1 TCGA-A1-A0SD-01A-11R-A115-07.2 TCGA-A1-A0SE-01A-11R-A084-07 TCGA-A1-A0SE-01A-11R-A084-07.1 TCGA-A1-A0SE-01A-11R-A084-07.2 ... TCGA-GM-A2DD-01A-11R-A180-07.2 TCGA-GM-A2DF-01A-11R-A180-07 TCGA-GM-A2DF-01A-11R-A180-07.1 TCGA-GM-A2DF-01A-11R-A180-07.2 TCGA-GM-A2DH-01A-11R-A180-07 TCGA-GM-A2DH-01A-11R-A180-07.1 TCGA-GM-A2DH-01A-11R-A180-07.2 TCGA-GM-A2DK-01A-21R-A180-07 TCGA-GM-A2DK-01A-21R-A180-07.1 TCGA-GM-A2DK-01A-21R-A180-07.2
0 gene raw_counts median_length_normalized RPKM raw_counts median_length_normalized RPKM raw_counts median_length_normalized RPKM ... RPKM raw_counts median_length_normalized RPKM raw_counts median_length_normalized RPKM raw_counts median_length_normalized RPKM
1 ?|100130426 0 0 0 0 0 0 0 0 0 ... 0 0 0 0 0 0 0 0 0 0
2 ?|100133144 115 4.7408940397351 1.19146690937079 134 5.53890728476821 1.08327022136351 119 4.85264900662252 0.648804765767191 ... 0.496258123278805 65 2.69039735099338 0.57336936864336 162 6.65894039735099 1.25258850027006 80 3.31043046357616 0.753734902894534
3 ?|100134869 59 1.85069008782936 0.46324930208213 73 2.28983688833124 0.447232631700592 72 2.25846925972396 0.297493981144456 ... 0.12295093161439 47 1.46486825595985 0.314193796680778 76 2.37892095357591 0.445333755567924 27 0.846925972396487 0.192784015000064
4 ?|10357 269 21.1477987421384 5.29354054052308 175 13.7578616352201 2.68707552797622 392 30.8176100628931 4.05941035836283 ... 3.93345184457586 266 20.9119496855346 4.45669164217304 467 36.7138364779874 6.85835726947309 232 18.2201257861635 4.15170457833354

5 rows × 2635 columns

Construcción de tablas de datos

A continuación se realizo una sustracción de cada pareja de genes de interes usando el mismo codigo para eventualmente realizar los análisis por separado para cada una.


In [3]:
# Tabla de datos de los genes BRCA1|672 y BRCA2|675

BRCA_Genes = DF[DF['Hybridization REF'].isin(['BRCA1|672', 'BRCA2|675'])]
BRCA_Genes = BRCA_Genes.set_index('Hybridization REF')
BRCA_Genes = BRCA_Genes.iloc[:,range(2,879,3)]
BRCA_Genes


Out[3]:
TCGA-A1-A0SB-01A-11R-A144-07.2 TCGA-A1-A0SD-01A-11R-A115-07.2 TCGA-A1-A0SE-01A-11R-A084-07.2 TCGA-A1-A0SF-01A-11R-A144-07.2 TCGA-A1-A0SG-01A-11R-A144-07.2 TCGA-A1-A0SH-01A-11R-A084-07.2 TCGA-A1-A0SI-01A-11R-A144-07.2 TCGA-A1-A0SJ-01A-11R-A084-07.2 TCGA-A1-A0SK-01A-12R-A084-07.2 TCGA-A1-A0SM-01A-11R-A084-07.2 ... TCGA-AQ-A1H2-01A-11R-A13Q-07.2 TCGA-AQ-A1H3-01A-31R-A13Q-07.2 TCGA-AR-A0TP-01A-11R-A084-07.2 TCGA-AR-A0TQ-01A-11R-A084-07.2 TCGA-AR-A0TR-01A-11R-A084-07.2 TCGA-AR-A0TS-01A-11R-A115-07.2 TCGA-AR-A0TT-01A-31R-A084-07.2 TCGA-AR-A0TU-01A-31R-A109-07.2 TCGA-AR-A0TV-01A-21R-A084-07.2 TCGA-AR-A0TW-01A-11R-A084-07.2
Hybridization REF
BRCA1|672 4.40496 3.65636 5.37729 3.17787 4.2747 2.16336 5.00327 3.44012 12.6588 1.93891 ... 2.49463 9.83356 0.604788 7.50332 3.03296 2.22486 3.65182 0.734913 9.10292 2.93352
BRCA2|675 2.76272 0.731084 0.90135 0.710209 0.731818 0.590914 1.39445 1.53163 5.80942 0.733033 ... 0.465498 2.09225 1.74232 2.669 0.648716 4.67846 1.91343 2.0097 0.93738 0.640673

2 rows × 293 columns


In [4]:
# Tabla de datos de los genes ERBB2|2064 y ERBB2IP|55914

ERBB_Genes = DF[DF['Hybridization REF'].isin(['ERBB2|2064', 'ERBB2IP|55914'])]
ERBB_Genes = ERBB_Genes.set_index('Hybridization REF')
ERBB_Genes = ERBB_Genes.iloc[:,range(2,879,3)]
ERBB_Genes


Out[4]:
TCGA-A1-A0SB-01A-11R-A144-07.2 TCGA-A1-A0SD-01A-11R-A115-07.2 TCGA-A1-A0SE-01A-11R-A084-07.2 TCGA-A1-A0SF-01A-11R-A144-07.2 TCGA-A1-A0SG-01A-11R-A144-07.2 TCGA-A1-A0SH-01A-11R-A084-07.2 TCGA-A1-A0SI-01A-11R-A144-07.2 TCGA-A1-A0SJ-01A-11R-A084-07.2 TCGA-A1-A0SK-01A-12R-A084-07.2 TCGA-A1-A0SM-01A-11R-A084-07.2 ... TCGA-AQ-A1H2-01A-11R-A13Q-07.2 TCGA-AQ-A1H3-01A-31R-A13Q-07.2 TCGA-AR-A0TP-01A-11R-A084-07.2 TCGA-AR-A0TQ-01A-11R-A084-07.2 TCGA-AR-A0TR-01A-11R-A084-07.2 TCGA-AR-A0TS-01A-11R-A115-07.2 TCGA-AR-A0TT-01A-31R-A084-07.2 TCGA-AR-A0TU-01A-31R-A109-07.2 TCGA-AR-A0TV-01A-21R-A084-07.2 TCGA-AR-A0TW-01A-11R-A084-07.2
Hybridization REF
ERBB2IP|55914 20.5236 20.5484 15.7034 12.9323 15.3774 13.9831 18.7919 17.5298 8.69113 17.2658 ... 23.8431 21.9891 9.53729 15.6089 21.9347 18.0967 11.5827 9.72575 11.7245 10.8085
ERBB2|2064 53.1432 110.088 86.4259 65.7879 89.5919 143.256 37.0356 83.3095 2.88508 1589.04 ... 85.0898 127.382 24.3042 937.225 89.4172 73.6136 35.3426 13.5191 33.3966 74.0504

2 rows × 293 columns


In [5]:
# Tabla de datos de los genes TP53|7157 y GSTM1|2944

TP__GS_Genes = DF[DF['Hybridization REF'].isin(['TP53|7157', 'GSTM1|2944'])]
TP__GS_Genes = TP__GS_Genes.set_index('Hybridization REF')
TP__GS_Genes = TP__GS_Genes.iloc[:,range(2,879,3)]
TP__GS_Genes


Out[5]:
TCGA-A1-A0SB-01A-11R-A144-07.2 TCGA-A1-A0SD-01A-11R-A115-07.2 TCGA-A1-A0SE-01A-11R-A084-07.2 TCGA-A1-A0SF-01A-11R-A144-07.2 TCGA-A1-A0SG-01A-11R-A144-07.2 TCGA-A1-A0SH-01A-11R-A084-07.2 TCGA-A1-A0SI-01A-11R-A144-07.2 TCGA-A1-A0SJ-01A-11R-A084-07.2 TCGA-A1-A0SK-01A-12R-A084-07.2 TCGA-A1-A0SM-01A-11R-A084-07.2 ... TCGA-AQ-A1H2-01A-11R-A13Q-07.2 TCGA-AQ-A1H3-01A-31R-A13Q-07.2 TCGA-AR-A0TP-01A-11R-A084-07.2 TCGA-AR-A0TQ-01A-11R-A084-07.2 TCGA-AR-A0TR-01A-11R-A084-07.2 TCGA-AR-A0TS-01A-11R-A115-07.2 TCGA-AR-A0TT-01A-31R-A084-07.2 TCGA-AR-A0TU-01A-31R-A109-07.2 TCGA-AR-A0TV-01A-21R-A084-07.2 TCGA-AR-A0TW-01A-11R-A084-07.2
Hybridization REF
GSTM1|2944 3.15475 0.734438 265.853 64.6132 8.85877 13.4134 1.51335 61.0039 0.724989 2.61712 ... 149.882 50.2519 3.12084 103.374 9.5813 0.687728 7.26227 0.517982 5.78123 0.510485
TP53|7157 125.101 38.8403 45.19 49.6044 48.7414 33.4708 49.6928 32.741 196.599 31.8967 ... 26.781 38.98 49.8788 81.5742 27.325 24.3804 83.7166 131.187 43.6887 34.48

2 rows × 293 columns

Análisis de correlación

Una primera aproximación al análisis de los datos de parejas de genes puede ser la visualización de alguna posible correlación de su expresión. Para este análisis se obtuvieron los siguientes diagramas de dispersión:


In [6]:
BRCA_GT = BRCA_Genes.transpose()

plt.scatter(BRCA_Genes.iloc[0,:],BRCA_Genes.iloc[1,:])
plt.xlabel("BRCA1|672")
plt.ylabel('BRCA2|675')
plt.title('BRCA1|672 vs. BRCA2|675')
sns.despine()



In [7]:
ERBB_GT = ERBB_Genes.transpose()

fig2 = plt.scatter(ERBB_GT.iloc[:,0],ERBB_GT.iloc[:,1])
plt.xlabel("ERBB2IP|55914")
plt.ylabel('ERBB2|2064')
plt.title('ERBB2IP|55914 vs. ERBB2|2064')
sns.despine()



In [8]:
TP__GS_GT = TP__GS_Genes.transpose()

plt.scatter(TP__GS_Genes.iloc[0,:],TP__GS_Genes.iloc[1,:])
plt.xlabel("TP53|7157")
plt.ylabel('GSTM1|2944')
plt.title('TP53|7157 vs. GSTM1|2944')
sns.despine()


Las distribuciones de las parejas de genes no siguen, al parecer, ningún tipo de correlación. Sin embargo La expresión de cada pareja puede ser diferencial, en consecuencia el siguiente paso es el análisis de estas expresiones en todos los individuos utilizando la Libreria Seaborn.

Distribución de niveles de expresión


In [9]:
for i, r in BRCA_Genes.iterrows():
    fig4 = sns.distplot(r.values, label=i, axlabel= 'RPKM')
sns.plt.legend()
sns.despine()


De la primera grafica de distribucion en donde se compraran la expresión de genes BRCA1|672 y BRCA2|675 en toda la población muestreada, se observa que ambos muestran un rango de expresión que ocsila entre 0 y 30 RPKM. No obstante, en la mayoría de la población con un 70% parece estar presentando unos niveles de expresión del gen BRCA2|675 mucho menores que ocsilan entre 0 y 4 RPKM. La distribución en la expresión del gen BRCA1|672, parece estar más variable en la población muestreada.


In [10]:
for i, r in ERBB_Genes.iterrows():
    sns.distplot(r.values, label=i, axlabel= 'RPKM')
sns.plt.legend()
sns.despine()


Por otro lado, la expresión de los genes ERBB2IP|55914 y ERBB2|2064 muestra una distribución mucho más variable. Por ejemplo, la expresión del gen ERBB2|2064 alcnaza inclusive valores de expresión de aproximadamente 1600 RPKM. No obstante, los valores bajos de expresión del gen ERBB2|2064, parecen solo estar a la vez presentes en un porcentaje muy bajo de la población, que es aporximadamente el 6%. En otras palabras las expresión del gen ERBB2|2064 parece tener valores altos en gran porcentaje de la población.

La distribución de los valores de expresión del gen ERBB2IP|55914, al contrario de los del gen ERBB2|2064, parecen ser menos variables, alcanzando valores de expresión hasta aproximadamente los 100 RPKM. Sin embargo siguen siendo estables dentro de ese rango, puesto que la densidad de probabilidad no sobrepasa el 6 % en los valores de expresión más expresados.


In [11]:
for i, r in TP__GS_Genes.iterrows():
    sns.distplot(r.values, label=i, axlabel= 'RPKM')
sns.plt.legend()
sns.despine()


Por último en el análisis de distribución de los valores de expresión, se obtuvo que los genes TP53|7157 y GSTM1|2944 tienen unas distribuciones similares. Sin embargo el modo de distribución de los valores de expresión del gen GSTM1|2944 parece estár más corrido hacia la izquierza o casi 0, pero a la vez presenta aún mucha variabilidad que alcanza hasta valores de casi 700 RPKM.

El gen TP53|7157 presenta una variabilidad menor con valores de expresión que alcanzan los 200 RPKM, sin embargo puede observarse también que la densidad más alta de probabilidad no supera el 2%, lo que indica que su expresión es también muy variable en la población.

Análisis de diferencias significativas

Las distribuciones anteriores arrojan información importante que permite afirmar que existe o no variabilidad entre los niveles de expresión de las parejas de genes establecidas. Sin embargo, algunos datos pueden estar enmascarando cómo todos los otros datos realmente se comportan. En este análisis de diferencias significativas se graficaron se revelan que datos se comportan de manera alejada a la media de los datos.


In [12]:
fig1 = sns.boxplot(data = BRCA_GT)
sns.swarmplot(data=BRCA_GT, color=".25")
sns.despine()


Para los genes BRCA1|672 y BRCA2|675 se observa que la media de los valores de expresión es de aproximadamente 4 RPKM y 2 RPKM. No obstante para BRCA1|672, a pesar de que el 50% de los valores de expresión en la población se halla entre 3 y 6 RPKM, pueden observarse gran cantidad de valores que superan el tercer cuantil. En cambio, los valores de expresión del gen BRCA2|675 son menores (1-2 RPKM para el 50% de los datos) y presentan menos valores alejados de la media.


In [13]:
sns.boxplot(data = ERBB_GT)
sns.swarmplot(data=ERBB_GT, color=".25")
sns.despine()


En los valores de expresión de los genes ERBB2IP|55914 y ERBB2|2064 se observa que existe mucha variabilidad principalmente en la expresión ERBB2|2064, con valores que superan los 1500 RPKM, lo que puede estár opacando los valores del gen ERBB2IP|55914, a pesar de esto parece no existir una diferencia significativa. A continuación se presentan los graficos de cajas y bigotes por separado.

In [14]:
sns.boxplot(data = ERBB_GT.iloc[:,0])
sns.swarmplot(data=ERBB_GT.iloc[:,0], color=".25")
sns.despine()


La grafica anteriror muestra que el 50% de los valores de lectura de la expresión del gen ERBB2IP|55914 varían entre 10 y 20 RPKM. Además, solo se presentan cuatro datos alejados del tercer cuantil.


In [15]:
sns.boxplot(data = ERBB_GT.iloc[:,1])
sns.swarmplot(data=ERBB_GT.iloc[:,1], color=".25")
sns.despine()


En contraste, los valores de expresión del gen ERBB2|2064 muestran unavariabilidad más importante entre 20 y 100 RPKM y a también una importante cantidad de datos por fuera del tecer cuantil, tan alejados que inclusive alcanzan valores de 1600 RPKM.


In [16]:
sns.boxplot(data = TP__GS_GT)
sns.swarmplot(data=TP__GS_GT, color=".25")
sns.despine()


Finalmente, de la gráfica anterior se puede ver que el 50% de los individuos muestran en promedio 50 RPKM de expresión del gen TP53|7157, pero con importante variabilidad, empero hay una gran cantidad de datos cuya expresión se situa en la linea 0. Mientras que los valores de expresión del GSTM1|2944, si bien son poco variables y ocsilan en expresiones medias entre los 30 y 60 RPKM, no se observa una linea de 0 expresión.

Discusión

Si bien exite una relación registrada de efectos carcinogenicos de la supresión compartida de la pareja de genes BRCA1|672 y BRCA2|675 (Dunning et al, 1999; Sotiriou & Pusztai, 2009), al observar el análisis de correlación de los valores de RPKM de ellos, no se halló un patrón claro. No obstante, al observar sus distribuciones se obtuvo que la expresión del gen BRCA2|675 está fuertemente reducida en 70% de la población analizada, en contraste con otros genes evaluados como el ERBB2|2064 que muestra datos con valores de expresión de hasta 1600 RPKM. Así mismo al observaar la distribución de los valores de expresión del gen BRCA1|672, aunque hay menos de 20% de la población con valores entre 0 y 5 RPKM, los máximo valores que alcnzan son de aproximadamente 25 RPKM en un dato alejado del tercer cuantil (ver Boxplot del gen BRCA1|672). En consecuencia, los genes BRCA1|672 y BRCA2|675, puede decirse que presentan una muy baja expresión en el en la muestra evaluada y pueden ser fuente molecular del cancer de mama de la mayoría de los individuos evaluados.

En cuanto al gen ERBB2IP|55914, si bien se esperaba una fuerte relación con la expresión del gen ERBB2|2064 (Dunning et al, 1999), fue primeramente cuestionada al no observarse ningún patrón de correlación por el análisis de dispersión. Al conducir los análisis de distribución de la pareja ERBB2IP|55914/ERBB2|2064 se observó una gran diferencia en las distribuciones de los valores de expresión, diferencia en la que la expresión del gen ERBB2IP|55914 se mostró mucho menos variable que la del gen primeramente asociado ERBB2|2064. Esta diferencia, pudo haber enmascarado los valores bajos de expresión del gen ERBB2IP|55914, dado que es posible que la distribución de la expresión del gen ERBB2|2064 se haya extendido a valores extremos por la presencia de algún dato raro con una alta expresión. Al observar por separado los graficos de cajas y bigotes se encontrar que la expresión del gen ERBB2IP|55914 varían entre 10 y 20 RPKM, mientras que los valores de expresión del gen ERBB2|2064 son muy variables.

Por último, los valores de expresión de los genes TP53|7157 GSTM1|2944 presentaron ambos mucha variabilidad, sin embargo los valores de expresión fueron muy consistentes con la baja expresión esperada. Al observar los graficos de cajas y bigotes de estos genes puede decirse que el gen GSTM1|2944 muestra una expresión muy variable, pero en valores bajos, mientras que el gen TP53|7157 muestra valores bajos pero consistentes en gran cantidad de la población.

Conclusiones

A modo de primera conclusión los valores de la expresión de los genes BRCA1|672 y BRCA2|675 no exhiben ninguna correlación, pero son muy bajos entre 0 y 5 RPKM en la mayoria de la población, y en consecuencia pueden ser causantes del cancer de mama en los pacientes analizados.

En segundo lugar, los genes ERBB2|2064/ERBB2IP|55914 no muestran ninguna correlación y solo el gen ERBB2IP|55914, parece estar involucrado en la generación de cancer de mama en la población.

Y a modo de colofón, los genes TP53|7157 GSTM1|2944, tampoco mostraron correlación en sus expresiones y se observó una menor expresión constante en la población del gen TP53|7157, aunque aun con valores muy lejanos de la media.

Bibliografía

Sotiriou, C., & Pusztai, L. (2009). Gene-expression signatures in breast cancer. New England Journal of Medicine, 360(8), 790-800.

Dunning, A. M., Healey, C. S., Pharoah, P. D., Teare, M. D., Ponder, B. A., & Easton, D. F. (1999). A systematic review of genetic polymorphisms and breast cancer risk. Cancer Epidemiology and Prevention Biomarkers, 8(10), 843-854.